叶绿体基因注释工具PGA安装及使用简介

原创生信小白鱼鲤小白小白鱼的生统笔记 2022-05-08

收录于合集 #基因组结构分析和注释 12个

叶绿体基因注释工具PGA

PGA（Plastid Genome Annotator）是今年新开发出来的叶绿体基因组注释工具。与目前现有的工具相比，它采用了反向BLAST搜索的方法确定基因在叶绿体基因组上的位置，并使用了新开发的基因和内含子特征边界检测算法，使注释准确性和灵活性有效提升。今天白鱼小编就带大家了解一下它。

PGA下载安装

Github链接：https://github.com/quxiaojian/PGA。Github链接中有对该软件的详细介绍，包括功能模块说明、使用简介、结果部分的摘要、参考文献等，帮助大家快速上手软件使用，可仔细阅读。

根据软件说明，该软件目前对于Windows、Linux以及Mac环境均支持，直接在Github中下载即可使用。PGA的主程序是个perl脚本（PGA.pl），因此前提要求你在电脑中已经安装了perl，通过perl来调用PGA。例如在Linux环境下，shell命令行中使用“perl PGA.pl”，即可直接调用程序。由于PGA的功能注释功能通过参考基因序列和目标基因组的同源比对来实现，比对使用到BLAST工具，因此前提也需要你在电脑中已经安装了BLAST。##如在 linux 环境下

#本地尚未安装 BLAST 的话，可直接使用 conda 安装
#conda install blast
#或者在 NCBI 中下载源码编译
#ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
#安装完成后记得一定要将 BLAST 添加至环境变量中

#perl 的话一般 linux 的电脑上都有吧
#没有的话安装一个也不费事，源码编译或 conda 安装等都可以

#PGA 主程序调用，如我的 PGA 路径在 /home/lyao222lll/software/PGA/
perl /home/lyao222lll/software/PGA/PGA.pl

#如果你已经将 PGA 路径添加在 ~/.bashrc 环境变量中，例如
#export PATH=/home/lyao222lll/software/PGA/:$PATH
#并且已对 PGA.pl 添加可执行权限：chmod -R 755 /home/lyao222lll/software/PGA/*
#此时直接在 shell 命令行输入 PGA.pl 即可直接使用了调用一下，能看到帮助选项就是没啥问题了。各参数详情也很简单易懂，PGA路径中的“README.md”说明中也有相关简介。

PGA测试使用

文件准备

好了接下来我们使用PGA提供的测试数据，也就是PGA路径中的“test/angiosperms或gymnosperms”，进行叶绿体序列注释，测试软件使用。

就以“test/angiosperms”为例吧。其中包含两个子文件夹，一个放置GenBank格式的参考叶绿体基因组文件（reference/Amborella_trichopoda.gb，含参考基因组序列及蛋白编码基因、非编码RNA注释等），一个放置待注释的叶绿体基因组fasta文件（target/Rosa_roxburghii.fasta）。

我们看到PGA提供的示例数据中，两个子文件夹中各只放了一条序列，在实际操作中，可以多放几条序列在里面。比如说你使用自己的叶绿体基因组时，对于参考序列，可从NCBI中下载GenBank格式的近缘物种的叶绿体基因组文件，这时候多下载几个吧，多一点肯定没问题，提供更多的参考序列可以使注释结果更完全一些。

好了也介绍的差不多了，以下使用“test/reference/Amborella_trichopoda.gb”同源注释“target/Rosa_roxburghii.fasta”。

PGA注释程序运行

参照Github中的说明，或者“README.md”中的说明，我们先使用默认参数作注释。

#默认运行，分别指定放置有参考基因组或目标基因组文件的路径
perl /home/lyao222lll/software/PGA/PGA.pl \
-r /home/lyao222lll/software/PGA/test/angiosperms/reference \
-t /home/lyao222lll/software/PGA/test/angiosperms/target

#上命令的其它参数使用默认值，即等价于
perl /home/lyao222lll/software/PGA/PGA.pl \
-r /home/lyao222lll/software/PGA/test/angiosperms/reference \
-t /home/lyao222lll/software/PGA/test/angiosperms/target \
-i 1000 -p 40 -q 0.5,2 -o gb -f circular -l warning

#各参数详情查看下PGA路径中的“README.md”说明即可
#一般情况下，默认参数就可以了，或者视情况修改参数以使效果更佳

然后等待一小会儿，其实很快就注释完成了。

默认将结果输出在当前工作路径下（当然你也可以通过 -o 参数指定输出位置）。结果文件夹“gb”，里面存放注释结果文件，也是GenBank格式的，以“.gb”后缀；同时也会一并生成日志文件，以“.log”后缀。

日志文件可用于辅助检查注释结果，这里暂且先不关注它，主要查看注释结果。

以示例文件为例，得到“Rosa_roxburghii.gb”。我们打开它，和常规的GenBank格式一样，结果文件中前半部分是注释得到的基因或RNA的名称、位置等信息，后半部分是基因组核酸序列。

总之，软件测试通过了，怎么样，使用起来还是挺简单方便的吧。不过有这么几个小问题需要注意下。

首先，对于每个注释得到的gene，并没有按其在基因组中的先后顺序展示出来，得想办法先排个序。

其次对于CDS编码区，未能提供翻译后的氨基酸序列，后面可能还需根据注释结果找到那段核酸序列，结合codon_start、transl_table信息，自己再找工具翻译下。

此外，检查是否存在没有注释出来的基因或RNA也是不可或缺的。这里作为测试软件使用，我就不再仔细看它了。而在实际情况中，对于存在遗漏未注释出来的基因，基本上是不可避免的，参考基因组和目标基因组之间的差异越大，越容易出现未注释到的基因。所以大家对自己叶绿体基因组注释后记得一定要仔细检查，尽管这一过程进行起来非常繁琐的。对于未注释出来的结果，可以更改软件参数试一下，以及再结合其它的叶绿体注释工具（如GeSeq等，我之前介绍GeSeq的时候也简单提过如何手动定位未注释出来的基因），尽可能不要遗漏基因。

关于其它类型的注释文件如gff、tbl等文件的获取，可以通过我们获得的gbk文件做个转换。BioPerl、Biopython等工具包提供了这类的转化命令，使用起来很方便，就不多提了，大家可自行搜索下。

PGA和GeSeq等其它工具的比较

PGA作者在文章中提到，PGA与目前现有的工具相比更加高效，如下文章中的部分截图（比较了PGA和GeSeq）。这儿我就没再做额外的测试比较两种注释工具的区别了，相信作者是严谨的。我先前一直在用GeSeq，的确它会有很多基因由于内含子的问题不能注释完全，但是可以手动检查去确定基因边界，补全它们。不过话说回来GeSeq的体验感还是蛮不错的。
尽管如此，我们最好还是多个软件都跑一下，综合选择注释结果。

友情链接